Conversational recommender systems (CRSs) often utilize external knowledge graphs (KGs) to introduce rich semantic information and recommend relevant items through natural language dialogues. However, original KGs employed in existing CRSs are often incomplete and sparse, which limits the reasoning capability in recommendation. Moreover, only few of existing studies exploit the dialogue context to dynamically refine knowledge from KGs for better recommendation. To address the above issues, we propose the Variational Reasoning over Incomplete KGs Conversational Recommender (VRICR). Our key idea is to incorporate the large dialogue corpus naturally accompanied with CRSs to enhance the incomplete KGs; and perform dynamic knowledge reasoning conditioned on the dialogue context. Specifically, we denote the dialogue-specific subgraphs of KGs as latent variables with categorical priors for adaptive knowledge graphs refactor. We propose a variational Bayesian method to approximate posterior distributions over dialogue-specific subgraphs, which not only leverages the dialogue corpus for restructuring missing entity relations but also dynamically selects knowledge based on the dialogue context. Finally, we infuse the dialogue-specific subgraphs to decode the recommendation and responses. We conduct experiments on two benchmark CRSs datasets. Experimental results confirm the effectiveness of our proposed method.
translated by 谷歌翻译
Pre-trained models have achieved remarkable success in natural language processing (NLP). However, existing pre-training methods underutilize the benefits of language understanding for generation. Inspired by the idea of Generative Adversarial Networks (GANs), we propose a GAN-style model for encoder-decoder pre-training by introducing an auxiliary discriminator, unifying the ability of language understanding and generation in a single model. Our model, named as GanLM, is trained with two pre-training objectives: replaced token detection and replaced token denoising. Specifically, given masked source sentences, the generator outputs the target distribution and the discriminator predicts whether the target sampled tokens from distribution are incorrect. The target sentence is replaced with misclassified tokens to construct noisy previous context, which is used to generate the gold sentence. In general, both tasks improve the ability of language understanding and generation by selectively using the denoising data. Extensive experiments in language generation benchmarks show that GanLM with the powerful language understanding capability outperforms various strong pre-trained language models (PLMs) and achieves state-of-the-art performance.
translated by 谷歌翻译
Multimodal Machine Translation (MMT) focuses on enhancing text-only translation with visual features, which has attracted considerable attention from both natural language processing and computer vision communities. Recent advances still struggle to train a separate model for each language pair, which is costly and unaffordable when the number of languages increases in the real world. In other words, the multilingual multimodal machine translation (Multilingual MMT) task has not been investigated, which aims to handle the aforementioned issues by providing a shared semantic space for multiple languages. Besides, the image modality has no language boundaries, which is superior to bridging the semantic gap between languages. To this end, we first propose the Multilingual MMT task by establishing two new Multilingual MMT benchmark datasets covering seven languages. Then, an effective baseline LVP-M3 using visual prompts is proposed to support translations between different languages, which includes three stages (token encoding, language-aware visual prompt generation, and language translation). Extensive experimental results on our constructed benchmark datasets demonstrate the effectiveness of LVP-M3 method for Multilingual MMT.
translated by 谷歌翻译
Open-World实例细分(OWIS)旨在从图像中分割类不足的实例,该图像具有广泛的现实应用程序,例如自主驾驶。大多数现有方法遵循两阶段的管道:首先执行类不足的检测,然后再进行特定于类的掩模分段。相比之下,本文提出了一个单阶段框架,以直接为每个实例生成掩码。另外,实例掩码注释在现有数据集中可能很吵。为了克服这个问题,我们引入了新的正规化损失。具体而言,我们首先训练一个额外的分支来执行预测前景区域的辅助任务(即属于任何对象实例的区域),然后鼓励辅助分支的预测与实例掩码的预测一致。关键的见解是,这种交叉任务一致性损失可以充当误差校正机制,以打击注释中的错误。此外,我们发现所提出的跨任务一致性损失可以应用于图像,而无需任何注释,将自己借给了半监督的学习方法。通过广泛的实验,我们证明了所提出的方法可以在完全监督和半监督的设置中获得令人印象深刻的结果。与SOTA方法相比,所提出的方法将$ ap_ {100} $得分提高了4.75 \%\%\%\ rightarrow $ uvo设置和4.05 \%\%\%\%\%\%\ rightarrow $ uvo设置。在半监督学习的情况下,我们的模型仅使用30 \%标记的数据学习,甚至超过了其完全监督的数据,并具有5​​0 \%标记的数据。该代码将很快发布。
translated by 谷歌翻译
这是本文的第二部分,为异质变化检测(HCD)问题提供了新的策略,即从图形信号处理(GSP)的角度解决HCD。我们构造一个图表以表示每个图像的结构,并将每个图像视为图表上定义的图形信号。这样,我们可以将HCD问题转换为图表上定义的系统的信号响应的比较。在第一部分中,通过比较顶点域的图之间的结构差来衡量变化。在本第二部分中,我们分析了来自光谱域的HCD的GSP。我们首先分析同一图上不同图像的光谱特性,并表明它们的光谱表现出共同点和差异。特别是,正是变化导致了光谱的差异。然后,我们提出了HCD的回归模型,该模型将源信号分解为回归信号并更改信号,并且需要回归的信号具有与同一图上的目标信号相同的光谱属性。借助图光谱分析,提出的回归模型是灵活且可扩展的。对七个真实数据集进行的实验显示了该方法的有效性。
translated by 谷歌翻译
本文为异构变化检测(HCD)问题提供了一种新的策略:从图形信号处理(GSP)的角度解决HCD。我们为每个图像构造一个图表以捕获结构信息,并将每个图像视为图形信号。通过这种方式,我们将HCD转换为GSP问题:对两个图上定义的不同系统的响应的比较,试图找到结构性差异(第I部分)和信号差异(第II部分)异质图像之间的变化。在第一部分中,我们用顶点域的GSP分析了HCD。我们首先证明,对于未改变的图像,它们的结构是一致的,然后在两个图上定义的系统上的相同信号的输出相似。但是,一旦区域发生变化,图像的局部结构会发生变化,即包含该区域的顶点的连通性发生变化。然后,我们可以比较通过在两个图上定义的过滤器的相同输入图信号的输出信号以检测更改。我们设计了来自顶点域的不同过滤器,可以灵活地探索原始图中隐藏的高阶邻域信息。我们还从信号传播的角度分析了变化区域对变化检测结果的有害影响。在七个真实数据集上进行的实验显示了基于顶点域滤波的HCD方法的有效性。
translated by 谷歌翻译
基于3DCNN,ConvlSTM或光流的先前方法在视频显着对象检测(VSOD)方面取得了巨大成功。但是,它们仍然遭受高计算成本或产生的显着图质量较差的困扰。为了解决这些问题,我们设计了一个基于时空存储器(STM)网络,该网络从相邻帧中提取当前帧的有用时间信息作为VSOD的时间分支。此外,以前的方法仅考虑无时间关联的单帧预测。结果,模型可能无法充分关注时间信息。因此,我们最初将框架间的对象运动预测引入VSOD。我们的模型遵循标准编码器 - 编码器体系结构。在编码阶段,我们通过使用电流及其相邻帧的高级功能来生成高级的时间特征。这种方法比基于光流的方法更有效。在解码阶段,我们提出了一种有效的空间和时间分支融合策略。高级特征的语义信息用于融合低级特征中的对象细节,然后逐步获得时空特征以重建显着性图。此外,受图像显着对象检测(ISOD)中常用的边界监督的启发,我们设计了一种运动感知损失,用于预测对象边界运动,并同时对VSOD和对象运动预测执行多任务学习,这可以进一步促进模型以提取提取的模型时空特征准确并保持对象完整性。在几个数据集上进行的广泛实验证明了我们方法的有效性,并且可以在某些数据集上实现最新指标。所提出的模型不需要光流或其他预处理,并且在推理过程中可以达到近100 fps的速度。
translated by 谷歌翻译
变压器结构由一系列编码器和解码器网络层堆叠,在神经机器翻译中实现了重大发展。但是,假设下层提供了微不足道或冗余的信息,那么香草变压器主要利用顶层表示形式,从而忽略了潜在有价值的底层特征。在这项工作中,我们提出了组转换器模型(GTRAN),该模型将编码器和解码器的多层表示分为不同的组,然后融合这些组特征以生成目标词。为了证实所提出方法的有效性,对三个双语翻译基准和两个多语言翻译任务进行了广泛的实验和分析实验,包括IWLST-14,IWLST-17,IWLST-17,LDC,WMT-14和OPUS-100基准。实验和分析结果表明,我们的模型通过一致的增益优于其变压器对应物。此外,它可以成功扩展到60个编码层和36个解码器层。
translated by 谷歌翻译
动机:癌症是异质的,影响了个性化治疗的精确方法。准确的亚型可以导致癌症患者的生存率更好。高通量技术为癌症亚型提供了多个OMIC数据。但是,由于OMICS数据的大量和高维度,精确的癌症亚型仍然具有挑战性。结果:这项研究提出了基于MLP和变压器块的深度学习方法拟议的亚型形式,以提取多摩学数据的低维表示。 K-均值和共识聚类也用于获得准确的亚型结果。我们比较了TCGA 10癌症类型的其他最先进的亚型方法。我们发现,基于生存分析,亚型形式可以在5000多个肿瘤的基准数据集上表现更好。此外,亚型形式还取得了泛滥亚型的出色结果,这可以帮助分析分子水平上各种癌症类型的共同点和差异。最后,我们将亚型格式应用于TCGA 10类型的癌症。我们确定了50种基本生物标志物,可用于研究靶向癌症药物并促进精密医学时代的癌症治疗。
translated by 谷歌翻译
通过多种语言对培训的多语言神经机器翻译(MNMT),由于模型参数的较少和较低的培训成本,通过在多种语言之间共享知识,引起了人们的关注。尽管如此,由于不同翻译方向之间的负面干扰,尤其是在高资源语言上,因此,多语言培训在共享参数中受到语言干扰退化的困扰。在本文中,我们提出了具有高资源语言特定培训(HLT-MT)的多语言翻译模型,以减轻负面干扰,该干扰采用了具有特定于语言的选择机制的两阶段培训。具体而言,我们首先仅使用高资源对训练多语言模型,然后选择解码器顶部的语言特定模块,以增强高资源方向的翻译质量。接下来,对所有可用语料库进行进一步培训,将知识从高资源语言(HRLS)转移到低资源语言(LRLS)。实验结果表明,HLT-MT在WMT-10和Opus-100基准测试上的表现优于各种强基础。此外,分析实验验证了我们方法在减轻多语言训练中负面干扰方面的有效性。
translated by 谷歌翻译